学术观点 | 陈忠敏：论言语发音与感知的互动机制 | 自由微信

查看原文

其他

学术观点 | 陈忠敏：论言语发音与感知的互动机制

语言学通讯 2021-03-17

点击蓝字关注我们

八万学者关注了语言学通讯

论言语发音与感知的互动机制

陈忠敏

复旦大学

陈忠敏，美国加州大学伯克莱校区博士，复旦大学中国语言文学系教授、博士生导师。研究方向：历史语言学、汉语方言学、实验语音学。

开设课程：Comparative and Historical Linguistics（双语课）；Experimental Methods on Phonetics（双语课）；Selected Works on Historical Linguistics and Sino-Tibetan Linguistics（双语课）；Introduction to Phonetics and Phonology（双语课）；Anatomy and Physiology of the Speech Mechanism（双语课）；语音学；语言科学；现代汉语；语音学与现代生活；理论语言学述评；汉藏语言学概论；汉藏语言学经典著作选读；言语听觉科学

陈忠敏教授

摘要： 语言交际是一个说者发出语流串，经媒介传入听者听觉器官，再由听者大脑神经中枢重新解码的过程。语言交际涉及说和听双方，本文从听与说两方面来深究人类语言交际的机制及其特点，通过讨论发音器官与听音器官频率声能互补、低频敏感度与元音格局、音类扩散分布与感知区别增强、量子理论与语音感知、说者协同发音与听者感知补偿等五方面内容，提出说与听有相互配合、同时也有相互制约的关系，同时说明一旦这种关系失衡，就会误解，可能导致音变。这一研究成果也将对人工智能、类脑研究有所启发。

关键词：语音发音；语音感知；量子理论；协同发音；感知补偿

基金项目：国家社科基金重点项目 “上海市方言地图集”（ 15AYY005）

文献来源：陈忠敏.论言语发音与感知的互动机制[J].外国语(上海外国语大学学报),2019,42(06):2-17.

1.前言

语言交际涉及到说与听两方面。从说者的角度来看，说者首先要在言语认知的高级中枢— —— 大脑运动皮层发出发音的运动命令、规划，然后主要运动皮层（ primary motor cortex）再发出指令引起神经元（ neuron）放电，相关神经元协调和牵动各种肌肉驱动发音体发声，共鸣体改变发出不同的音来。从传播的角度看，随着发音体与共鸣腔内的空气粒子压力发生变化，产生不同性质的声波，声波通过媒介传到听者的耳朵里。从听者的角度来看，声波传送到听者耳朵后，听音器官对外来的语音会有选择性地放大、缩小来提取声学信号再转换成神经脉冲放电，生理电信号传入大脑中枢来重新解码，从而完成一次语言交流过程。发音、语音传播、语音解码三个阶段形成语言链中三个不同的阶段。在语音学里对应于这三个阶段分别形成三个不同的语音学分支：发音语音学（articulatory phonetics）、声学语音学（acoustic phonetics）、听觉/感知语音学（auditory phonetics/ speech perception）。语言的发音、传播、感知虽然根据语言链的前后关系分成三个不同阶段，但是它们是相互配合和制约的。本文从听与说两方面来深究人类语言交际的机制及其特点，提出说与听有相互配合、同时也相互制约的关系，一旦这种关系失衡，就会误解，再从听者发出此类音，就有可能产生音变。

2．发音器官与听音器官频率声能互补

从发音器官来研究言语的产生，可以用 “声源 + 共鸣滤波器”理论（ source + filter）来说明。此理论由著名语音学家 Gunnar Fant 在 20 世纪 60 年代初提出（ Fant 1960）。肺部出来的气流是声能，所以肺部和声门以下的器官以及里面的气流是言语发声的动力部分。气流通过两片靠拢的声带会产生布鲁力效应（ Bernoulli effect）使得声带相向运动而引起振动,从而产生准周期性的脉冲（impulses）声源，声带振动的频率就是基频（Fundamental Frequency），通常写作 F0。另一种声源是白噪音声源（white noise ，白噪音声源产生于共鸣腔内的某收紧点,收紧点变窄,急速的气流通过产生湍流般噪音,或者收紧点闭塞后突然爆破,产生爆破声源。噪音声源与声带发出的准周期性声源可以叠加，比如浊擦音；也可以分开,比如元音只有准周期声源，清辅音只有噪音声源。声源前的共鸣腔可以假设为一种特定形状的共鸣滤波器（vocal tract filter) 。声源发出的声音经过特定的滤波器的修饰，再经过唇辐射放大就是我们人耳听到的语音。图 2.01 是元音产生的声源 + 共鸣示意图。

可是在语言里 2,000 赫兹以下的低频对语言来讲也是非常重要的，不同元音的区别主要靠第一、第二共振峰的不同，第一共振峰一般在 1,000 赫兹以下，很多元音的第二共振峰也不到 2,000 赫兹（见图 3.02、3.03），如果 2,000 赫兹以及低于 2,000 赫兹的声音敏感度不高，将大大损害言语交际。低频区如果要达到 2,000 赫兹到 5,000 赫兹一样的敏感度，就要增加低频区的音量。在图 2.01 里我们知道声门的瞬间频谱图的振幅是低频处高，越往高频，振幅越低，通过共鸣腔修饰的语音也具有这个特征,输出的第一、第二共振峰的音量远远高出第三、第四、第五等共振峰的音量，发音时具有的低频音量高，高频音量低的特点，正好拉高了人耳接受低频声音的敏感度，以保证人耳 20 赫兹到 5,000 赫兹范围内的声音都具有最佳敏感度。这是人类发音器官与听音器官相互作用，互相补充，保证语言交流有效的经典例子。5,000 赫兹以下的敏感度对人类言语交际有极为重要的意义。因为人类语音的最重要音征都集中在低频处。比如最低的三个共振峰（简称 F1、F2、F3）频率决定元音的音色，一般都在 5,000 赫兹以下；声调语言里男女声调的频率（基频）一般在 20 赫兹至 400 赫兹范围内变化；语言中塞音 /k/爆破点（ burst）能量集中区在 2,000 － 4,000 赫兹左右；/p /和 /t /的区别是爆破点以 3,000 赫兹左右为界，前者是能量往下降，后者是上升的；某些辅音的能量集中区虽然处在较高的频率段里,比如清辅音 s,但是没有一种语言凭借 6,000 赫兹以上的能量区别不同擦音。

3．低频敏感度与元音格局

人类对低频的敏感不仅体现在强度的感知上，还体现在音类分辨精度上。这种听辨的特性直接制约着人类语言语音的发声及语音格局、音变的方向。成人内耳耳蜗（cochlea）大约长 35 毫米，中间的基底膜（basilar membrane）约长 31 毫米，基底膜从卵形窗（oval window）到蜗孔尖端（apex）分布着 23,500 多个听觉毛细胞，以此来感知从高到低不同频段的声音，不过不同频段的感知精度在基底膜上并非线性的，低频感知的带宽（ bandwidth）窄，分析声音精密；高频感知的带宽阔，分析声音粗犷。图 3.01 是内耳基底膜伸张时声音感知频率分布图（取自 Johnson 2012：89 Figure 4.5 （ b））

粗段处是靠近蜗孔尖端部分，对低频起反应；细段处是近卵形窗部分，对高频起反应。低频段往高频段等距离所对应的频率反应范围是不同的，相同的间距，低频处 300 － 100 = 200 赫兹，到了高频处是 15,400 － 11,500 = 3,900 赫兹。换句话说低频处的带宽分辨率细，高频处带宽分辨率粗。比如 1,000 赫兹处的有效感知带宽是 130 赫兹，而 5，000 赫兹处的感知带宽是 650 赫兹，所以人耳对低频端的声音分辨率高，高频段声音则分辨率低。感知频率的这种特点，直接影响着人类语的发音特点与语音格局。图 3.02、3.03 分别是美式英语（ Peterson ＆ Barney 1952）和普通话（据吴宗济、林茂灿主编、鲍怀翘、林茂灿增订 2014：113 的数据制作）单元音共振峰舌位图：

图 3.02、3.03 里 y 轴是发音时共鸣腔最低的共振峰（第一共振峰，简称 F1）的刻度，第一共振峰的数值跟发音时舌位的高低有关，一般来说数值越高，舌位越低。x 轴则是共鸣腔次低的共振峰（第二共振峰，简称 F2）的刻度，第二共振峰的数值跟舌位的前后有关，一般来说数值越高，舌位越前。从赫兹数来看，y 轴上的每个刻度的间距都是 100 赫兹，但是仔细比较，可以看出 200 赫兹到 300 赫兹的间距与 800 赫兹到 900 赫兹并非等距离，前者的间距大，后者的间距小；y 轴上虽然每个刻度都相差 100 赫兹,但是刻度的间距是非等距的，赫兹数值越大,刻度的间距越小。这一点在 x 轴上更为明显，同样相差 500 赫兹,1000 至 1500 赫兹的间距远远大于 2500 到 3000 赫兹的间距。再比较 y 轴与 x 轴的赫兹数值, y 轴上 800 至 900 赫兹的间距与 x 轴上 2500 至 3000 赫兹的间距大致相当，但是前者这一间距的只相差 100 赫兹，后者同样的间距则要相差500 赫兹。低频处分辨精细，高频处分辨相对粗狂,正好也能说明人类语言里元音舌位高低的层级分辨要比舌位前后的层级分辨来得重要。表现在语言的元音舌位图里就是元音舌位的高低分布数量要多于元音舌位的前后分布数量。图 3.04 是世界多数语言元音舌位分布图（ Liljencrants ＆ Lindblom 1972）,可以看出除了三元音构建成元音舌位倒三角外，其他五元音、七元音的，舌位高低的层级数都要多于舌位前后的层级数。

4．音类扩散分布与感知区别增强

元音舌位图还有一个特点就是世界多数语言里前元音更多的是不圆唇，后元音更多的是圆唇。表 3.04 所列的三种类型元音舌位图里，除了最低的元音外，无论是三元音系统、五元音系统,94% 还是七元音系统，前元音都是不圆唇，后元音都是圆唇。在 Maddieson（1984）所调查的语言里,的前元音是不圆唇的,93.5% 的后元音是圆唇的。从发音的角度来看,舌的前伸后缩和唇的圆唇不圆唇是两个相对独立的发音机制，相互间没有牵制关系，也即舌位往前,双唇不必展开,舌位往后,双唇也不必一定要圆唇。但是前元音不圆唇、后元音圆唇则是最大限度拉大了音类的声学距离（此处是指第二共振峰 F2 的声学数据）。如图 4.01 所示：

尽管语音声学信号与语音感知的关系错综复杂，但是不可否认语音感知的主要依据还是声学信号，换句话说尽量大的声学区别，对听者来说是增强了音类间的区别感，音类间的区别清晰则更有利于言语交际。Liljencrants 和 Lindblom 把这种元音分布的特点叫做元音适应性扩散分布理论（Theory of Adaptive Dispersion)。其中心思想就是一个语言里的音位与音位之间的距离应该尽量拉开，分布要扩散。拉大音类之间的距离也就提高了言语交际的清晰度，使得言语交际不模糊，而扩散的距离必须要适应这种语言的音系格局（Liljencrants ＆ Lindblom 1972）。所以一个语言不管是 3 元音、 4 元音，还是 5 元音、 6 元音，甚至 7 元音系统，前后元音最重要的声学区别是 F2 的差异，前元音 F2 大，后元音 F2 小，前元音伴随不圆唇特征和后元音伴随圆唇特征进一步拉大了 F2 的差异，使得前后元音的对立更为突显，所以前元音不圆唇特征和后元音圆唇特征并非是主要的区别特征，而是一种伴随特征，这种伴随特征起到了增强区别性的作用。这是发音和声学迁就感知的例子。

与感知有关的，在发音上唇和舌有互动作用的另外一个例子就是卷舌辅音。无论在汉语里还是在其他语言里，发卷舌音往往会伴随双唇圆唇或突出（ protrusion）动作。图 4.02 是美式英语发 / r/时的情形（取自 Gick，Wilson，＆ Derrick 2013：213 Figure 11.2）

在唇部突出或者收紧都是在三个共振峰的波腹处，所以降低整个腔体的共鸣频率。特别是第三共振峰，发卷舌音的三个收紧处都是在波腹上，所以卷舌音如果有圆唇或者唇突出发音姿态，则第三共振峰一定是相当低的，压低第三共振峰也间接压低了第一、第二共振峰，如果是清塞擦音、擦音，则能量集中区都会落在很低的频率范围内，这样就跟能量集中区处于较高频率的舌尖前塞 h 擦音、擦音（ ts ts s 之类）有效区别开来。所以，发卷舌辅音时的双唇圆唇或突出，虽然不是卷舌音的区别性发音特征,两者也没有发音机制上的联系，但是两者结合在一起起到有效拉大与舌尖前音的感知空间。Stevens 等（ 1986）把这些非区别性语音特征命名为音类增强性（enhancement）特征。这种增强性特征作为音位的冗余特征会伴随区别性特征而存在，它加强了区别性特征的声学效果，起到了让听者更容易感知音类间差异的作用。如果知道卷舌音圆唇化特性后，就能解释很多看似困惑的音变。如上古汉语二等介音为 r，它跟知、庄组声母相配，发展为中古的卷舌音声母（李方桂 1971）。二等介音 r 如果圆唇特征突显，就会变为圆唇介音。表 4.01 所列浙江吴语开口二等字有圆唇介音 u（ y）,可以解释为早先的 r 介音圆唇特征突显的结果。

5．音类量子理论与语音感知

Stevens 和 House（ 1961）基于 Fant“ 声源 + 共鸣滤波器”的理论模式，提出用三个参数，它们分别是收紧点位置、唇的突展度、以及共鸣声道的截面积等参数可以估算出某时某刻共鸣腔的共振峰频率。虽然如此，发音体在共鸣腔中运动形成的不同声学效果并不是等量的。沿着唇往里直到喉部会发现某些发音部位的移动对声学参数的改变不是十分敏感，但是在另外一些地方移动则会引起较大的声学参数改变,Stevens 把这一现象叫作语音发声与声学产出的量子理论(quantal theory of speech sound，Stevens 1972、1989)。如图 5.01 所示（取自 Stevens 1989）：

图 5.01 是代表发音体与声学产出对应图，横轴代表发音体的变化参数，纵轴则代表对应的声学产出参数， I 部位和 III 部位发音体参数的改变不会引起相应声学参数的大的变动，也即声学参数对之不敏感；II 部位发音体参数的改变则会引起声学参数剧烈的变化，也即声学参数对之非常敏感。Stevens 把 I 部位和 III 部位叫作稳定段（ stable regions），把 II 部位叫作不稳定段（ transitional regions）。Stevens 认为稳定段与不稳定段交替形成的音段音位是一个语言里音位系统的最佳序列（ optimization of the phonemic inventory）。Stevens 从发音部位及声学参数两方面来考察稳定段的音到底是哪些，他认为对于元音来说收紧点后的腔体（后腔）形成的最低共振，即元音的第二共振峰（ F2）,如果与邻近的共振峰（ F1 或 F3）形成双高峰，那就是量子元音（ quantal vowels）的必备条件。元音/u /、/i /、/a/正好符合这些条件。请看下列发元音 /i /、/a/、/u /共鸣腔收紧点位置和对应的共振峰曲线图（据 Stevens 1989 重新排列）。

发元音 /i /，从喉往外 10 cm 处发 /i /的收紧点，也正好是第二共振峰与第三共振峰最为接近点。从喉往外 8 cm 处是发 /a/的收紧点，也正好是第二共振峰与第一共振峰最为接近处。

从喉往外 4 － 6 cm 处和 12 cm 处是发 /u/时的收紧点（双收紧点）。4 － 6 cm 处、 12 cm 处也正好分别是第二共振峰与第三共振峰、第二共振峰与第一共振峰最为接近处。

任何的两个共振峰数值接近都会起到增强彼此的能量的作用，从而使得这些元音的声学音征显赫。

量子理论的提出不仅是发音与声学对应关系的重大发现，而且还可以解释语音感知及语音变化很多现象。

第一，处于声学参数不明感的发音部位是双唇、硬腭、软腭、以及咽腔上部，这些部位收紧是音段的稳定部位，元音 /i /、/u/、/a/的发音收紧点正是坐落在这些稳定部位，这就解释了为什么世界绝大多数语言都有着三个最为重要的周边元音（ peripheral vowels) 。

第二，除了三个周边元音外，其他重要的语音特征也可以在这些稳定部位得以落实。这些不同的稳定段所提供的声学参数正是人类感知语音区别性特征的重要依据，Stevens 本人就以此为依据来建立自己的语音区别特征（ Stevens 2006）。

第三，发音动作与声学参数不是一一线性对应的。在 I 和 III 稳定段范围内，发音动作不必十分到位和精确，因为在这个稳定段内所产生的声学参数是差不多的。换句话说，在一种语言里，落在稳定段的音类，发音动作的变异不会引起声学参数的剧烈变化，人们对这些变异的感知也是不敏感的。处在发音稳定段的不同音类，如图 5.01 的 I 部位和 III 部位，也是语音感知空间突然跳跃的类别，也是切分不同音段发声（不同的发音部位）、声学（不同的声学表现）、以及感知（不同的感知类别）的重要依据。

第四，语音音类感知空间的突然跳跃与人类特有的共鸣腔特点具有密不可分的关系。喉头下沉，形成人类特有的与口腔大致成直角和等距离的咽腔；颌骨由于进化而退缩，与此同时，舌骨、舌体后退，舌则可以更自如在咽腔处收紧以及在共鸣腔内灵活运动。其中舌体能在口腔与鼻咽腔成 90 度直角处隆起或收紧是产生 /i / /u/ /a/三个距离最大元音的关键（ Lieberman 1984：276 － 280）。

第五，它还可以解释许多音变现象。两个相邻的音段 AB 在发音时必定会产生协同发音( co- articulation），不过到底是 A 影响 B，还是 B 影响 A？量子理论有一个较为合理的解释。一般来说收紧点较紧的那个声学参数易变，收紧点较松的那个声学参数较稳定。这就解释了在语言里，辅音 + 元音的组合里，往往是辅音不稳定，变化大，而元音的变化小，较稳定的现象。如我们常见的腭化音变：

腭化音变是前高元音使得前面的辅音往硬腭方向变，而前高元音本身并不发生改变。用量子理论来解释就是因为辅音收紧点通常比元音的紧,不稳定，易变；元音收紧点松，较为稳定，更而况高元音 /i / /y/也正好处于量子理论的稳定段,在音变的过程中是起主导作用的。

量子理论所涉及的内容主要是发音体运动和对应的声学参数的非线性（ nonlinearity）关系，但是这种关系其实也制约着听者的音类感知，一个语言里选择量子元音与其说是基于说者，还不如说是基于听者和说者双方配合默契的选择。

6．说者协同发音与听者补偿效应

7.结语

交际是语言的最大功能。一次言语交际过程包括发声、传播、感知三个流程，涉及到说者与听者双方。成功的言语交际具有两大要求，第一大要求是要清晰。Jakobson 等人（1952）曾说过：“我们说是为了让别人听和懂” （we speak in order to be heard，in order to be understood）。为了让别人听和懂，就要求说者说话时要说得清楚和明白。听者的这种要求会倒逼说者发音要具备清晰的发音特征,增加或增强语音的非区别性发音特征就起到这一作用。如前元音增加或增强不圆唇性特征,后元音增加或增强圆唇性特征成为最常见元音格局。卷舌音常伴随圆唇特征也是属于这种性质。成功交际的另外一大要求是语言传播要高效,单位时间内传播的信息量要大，所以语速就要快。说者语速快，必定会产生协同发音，听者就启动感知补偿效应来自动矫正传来的模糊语音，恢复说者心目中想说的话语，从而达到交际成功。从音变的角度看，发音清晰是音变的一个潜在的目标和方向。说者和听者毕竟不是同一个人，语音声波通过不同环境的媒介传送也会有损耗、扭曲，有时说者与听者的配合不是那么默契和有效，从而导致听者误解，产生音变。人类的语言是精妙绝伦的，既然是交际的工具,说和听双方必定是相互配合和制约的。接受语言的听觉外延器官以及听觉神经中枢会有选择性地捕捉有用的语音信号，屏蔽或抑制与此无关的非语音信号；从发音角度来说，发出的音要调试到听者最容易接受和最容易辨别的音类范围内,才是达到最有效的语言交际目的，换句话说,说者的发音也受到来自听者感知器官的掣肘。语言研究必须同时考虑说、传播、听三者的机制以及它们之间的关系，从说者和听者的角度同时研究,才能全面认识人类语言的奥秘。

编者按

参考文献略，感谢陈忠敏教授和《外国语》的支持，欢迎查阅《外国语》2019年第6期纸质原文。

本文编辑：上海理工大学孙雨

本文审核：吉林大学王峰

公众号外联：我们优先推广免费的学术会议、讲座、研修等项目。收费项目与商务合作需支持劳务费，请联系dianzishu@126.com 商谈。

继续为各位提供有益的学术资讯

长按二维码赞赏语言学通讯

八万学者关注了

○

语言学通讯

○

请留下你指尖的温度

让太阳拥抱你

记得这是一个有情怀的公众号

点“在看”给我一朵小黄花

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？